查看原文
其他

VASA-1 微软的逼真音频驱动的实时生成会话面孔

renee创业狗 Renee 创业随笔
2024-10-09

之前介绍过微软一个让 Avatar 动起来的技术-微软 GAIA:ZERO-SHOT的对口型单张图生成视频技术。今天再看看他们4月份的Paper,VASA。VASA 是一个框架,能够根据单一静态图像和语音音频片段生成具有吸引人视觉情感技能(VAS)的逼真说话面孔。其首款模型 VASA-1 不仅能够精确同步音频的嘴部运动,还能捕捉广泛的面部细微变化和自然的头部动作,增强真实性和生动性。

场景:

逼真度与生动性

  • 音频输入长度为一分钟的示例。
  • 更多带有多样化音频输入的短示例。

生成的可控性

  • 不同主要注视方向的生成结果(分别为正面、左侧、右侧和向上)。
  • 不同头部距离比例的生成结果。
  • 不同情绪偏移的生成结果(分别为中性、快乐、愤怒和惊讶)。

分布外泛化能力


解耦能力

  • 相同输入照片下不同运动序列的结果。
  • 相同运动序列下不同照片的结果。
  • 姿势与表情编辑

实时效率

VASA-1 的方法在离线批处理模式下生成512x512大小的视频帧,帧率为45fps;在在线流媒体模式下的帧率可达40fps,前置延迟仅为170ms。这些结果是在一台配备单个NVIDIA RTX 4090 GPU的桌面电脑上评估得出的。

总体框架

VASA-1 的方法不是直接生成视频帧,而是在隐空间中基于音频和其他信号生成整体的面部动态和头部运动。基于这些运动隐代码,VASA-1 的方法通过面部解码器生成视频帧,面部解码器还将输入图像中提取的外观和身份特征作为输入。

为实现这一目标,首先构建了一个面部隐空间,并训练面部编码器和解码器。一个富有表现力且解耦的面部隐学习框架被精心设计并在现实生活中的面部视频上进行训练。然后,我们训练了一个简单但功能强大的扩散变压器来建模运动分布,并在测试时根据音频和其他条件生成运动隐代码。

模型的主要特点和优势

  • 精确的唇同步:生成的嘴部运动与音频完美同步。
  • 细腻的面部表情和自然的头部动作:捕捉面部细微变化和自然的头部运动,增强逼真感和生动性。
  • 高质量视频生成:生成具有真实面部和头部动态的高质量视频。
  • 实时生成:支持在线生成512x512分辨率的视频,帧率高达40 FPS,启动延迟极低。
  • 新指标评估:通过广泛的实验和新指标的评估,VASA-1 在各个维度上显著优于以往的方法。

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存